1 Trabalho de Econometria - Questão 1

1.1 Introdução

Neste relatório apresentaremos a resolução da Questão 1 do Trabalho de Econometria. Utilizamos os dados gerados a partir do script disponibilizado pelo professor, sendo baseados em uma simulação da equação de Mincer com erros homoscedásticos e heterocedásticos.

1.2 Estrutura da base de dados

A base de dados mostra uma simulação de um mercado de trabalho pela equação de Mincer. A equação de Mincer relaciona o salário com a escolaridade e experiência profissional. Os dados foram gerados incluindo heterogeneidade na escolaridade e com variáveis relevantes como sexo, raça e distribuição regional.

Além das variáveis explicativas (education, experience, male, white e dummies regionais), existem duas versões do salário: uma sob homoscedasticidade e outra sob heterocedasticidade. Dessa forma, investigaremos relaçoes entre variáveis através de regressões, testes para testar heterocedasticidade, estimaremos pelo método Feasible Generalized Least Squares (FGLS) e iremos comparar os resultados entre métodos.

dplyr::glimpse(data)
## Rows: 2,000
## Columns: 13
## $ education       <dbl> 12, 9, 11, 12, 6, 4, 14, 12, 6, 9, 10, 9, 4, 11, 17, 8…
## $ male            <int> 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, …
## $ white           <int> 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, …
## $ experience      <dbl> 14, 8, 12, 17, 18, 4, 9, 9, 16, 19, 15, 23, 2, 4, 33, …
## $ region          <chr> " Southeast ", " Southeast ", " Northeast ", " Southea…
## $ north           <dbl> 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ northeast       <dbl> 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, …
## $ south           <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ centerwest      <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, …
## $ log_wage_homo   <dbl> 9.751107, 8.325719, 8.420855, 8.564897, 8.442613, 7.94…
## $ wage_homo       <dbl> 17173.230, 4128.706, 4540.783, 5244.301, 4640.665, 280…
## $ log_wage_hetero <dbl> 9.305316, 7.866646, 8.639224, 9.043058, 8.750026, 7.32…
## $ wage_hetero     <dbl> 10996.321, 2608.801, 5648.946, 8459.610, 6310.851, 152…

1.3 Estatísticas descritivas (Item 1.1)

1.3.1 Principais

Estatísticas descritivas da base inicial
StatisticMeanMedianSt. Dev.MinMaxN
education9.59293.3124182,000
male0.51810.500012,000
white0.43400.496012,000
experience15.470159.5240452,000
north0.09400.291012,000
northeast0.26800.443012,000
south0.14200.350012,000
centerwest0.08300.276012,000
log_wage_homo8.5778.5670.6066.63010.5202,000
wage_homo6,383.0545,256.0324,213.816757.53537,040.3202,000
log_wage_hetero8.5568.5470.8365.59711.3072,000
wage_hetero7,437.3835,151.8247,693.899269.52281,385.6902,000

1.3.2 CV

Coeficiente de variação da base inicial
educationmalewhiteexperienceregionnorthnortheastsouthcenterwestlog_wage_homowage_homolog_wage_heterowage_hetero
0.3450.9651.1430.6163.1141.6552.4543.3250.0710.6600.0981.034

Além das estatísticas básicas, julgamos produtivo incluir o coeficiente de variação (CV), pois o CV permite avaliar a variabilidade relativa de cada variável, comparando dispersões entre variáveis com escalas diferentes. Isso complementa a análise descritiva e ajuda a interpretar melhor a heterogeneidade presente na base simulada.

Observando as estatísticas, a escolaridade média é de 9,6 anos, com variabilidade moderada (CV = 0,330), o que sugere uma distribuição relativamente concentrada em torno da média. A proporção de homens (51,3%) e de indivíduos brancos (45,4%) coincide com os valores definidos no processo de simulação, e seus coeficientes de variação próximos de 1 refletem o comportamento esperado de variáveis binárias.

A experiência média é de aproximadamente 15 anos e apresenta maior dispersão relativa (CV = 0,613), o que é consistente com seu intervalo mais amplo. As dummies regionais mostram coeficientes de variação elevados, pois a categoria correspondente possui menor representatividade.

Os salários, tanto em nível quanto em log, apresentam padrões coerentes com a estrutura da equação de Mincer. O log-salário homocedástico possui baixa variabilidade (CV = 0,071), enquanto os salários em nível exibem maior dispersão, devido à transformação exponencial. Já o log-salário heterocedástico e seu correspondente em nível têm CVs maiores, refletindo a variância crescente introduzida no modelo heterocedástico.

1.4 Análise Gráfica do Salário x Educação

1.4.1 Scatterplot: Salário × Educação (Item 1.2)

1.4.2 Scatterplot: Log Salário × Educação (Item 1.2)

1.4.3 Scatterplot: Log Salário × Experiência (Item 1.3)

Analisando os quatro gráficos concluímos que tanto a escolaridade quanto a experiência possuem relação positiva com os salários, mas essa relação se apresenta de maneira mais clara quando o salário é transformado em log. No primeiro gráfico, que relaciona salário em nível e escolaridade, observa-se um forte aumento da dispersão à medida que os anos de estudo crescem, indicando heterocedasticidade: indivíduos com a mesma escolaridade apresentam salários muito distintos, e essa variância cresce para níveis mais altos de educação.
Já nos gráficos que utilizam o log do salário, a relação tanto com experiência quanto com escolaridade torna-se mais linear e com dispersão mais homogênea. Desse modo, nós cremos que a transformação logarítmica reduz a heterocedasticidade dos dados. Além disso, percebe-se que a escolaridade apresenta uma relação mais crescente com o log do salário, enquanto a experiência também tem efeito positivo, porém com maior dispersão. Logo, os gráficos indicam que modelar o salário em log melhora a estabilidade da variância e mostra os retornos crescentes associados à educação e à experiência.

1.5 Estimação da Equação de Mincer (OLS) utilizando log_wage_homo e log_wage_hetero

1.5.1 Regressão Completa (Item 1.4)

1.5.1.1 Homoscedástico

data <- data %>% mutate(experience2 = experience^2)

# Região referência vai ser sudeste
# Gênero referência vai ser mulher
# Raça referência vai ser não branca

regress_4 <- lm(log_wage_homo ~ education + experience + experience2 + north + northeast + south + centerwest + male + white, data = data
)

1.5.1.2 Héterocedástico

# Cria a variável experience^2
data <- data %>% mutate(experience2 = experience^2)

# Região referência vai ser sudeste
# Gênero referência vai ser mulher
# Raça referência vai ser não branca
regress_4_hetero <- lm(log_wage_hetero ~ education + experience + experience2 + north + northeast + south + centerwest +
                       male + white, data = data
)

1.5.2 Resultados da regressão

1.5.2.1 Homoscedástico

Resultados da Regressão: Log do Salário
Dependent variable:
log
Educação (anos)0.128***
(0.002)
Experiência0.037***
(0.003)
Experiência²-0.001***
(0.0001)
Homem-0.193***
(0.028)
Branco-0.178***
(0.019)
Região Norte0.072***
(0.024)
Região Nordeste0.063**
(0.030)
Região Sul0.236***
(0.016)
Região Centro-Oeste0.199***
(0.016)
Constant6.795***
(0.034)
Observations2,000
R20.669
Adjusted R20.667
Residual Std. Error0.350 (df = 1990)
F Statistic445.896*** (df = 9; 1990)
Note:*p<0.1; **p<0.05; ***p<0.01

A regressão indica que escolaridade e experiência aumentam o salário, embora a experiência tenha retornos decrescentes. Todas as regiões fora a de referência exibem salários mais altos. Já homens e indivíduos brancos apresentam salários maiores na amostra. O modelo explica bem a variação do log do salário (R² ≈ 0,67), sugerindo que os determinantes incluídos capturam grande parte das diferenças salariais observadas.

1.5.2.2 Heterocedástico

Resultados da Regressão: Log do Salário héterocedástico
Dependent variable:
log
Educação (anos)0.128***
(0.005)
Experiência0.036***
(0.005)
Experiência²-0.001***
(0.0001)
Homem-0.165***
(0.056)
Branco-0.203***
(0.038)
Região Norte0.038
(0.047)
Região Nordeste0.110*
(0.059)
Região Sul0.190***
(0.031)
Região Centro-Oeste0.184***
(0.031)
Constant6.870***
(0.067)
Observations2,000
R20.324
Adjusted R20.321
Residual Std. Error0.689 (df = 1990)
F Statistic105.800*** (df = 9; 1990)
Note:*p<0.1; **p<0.05; ***p<0.01

1.5.3 Previsões e Gráfico 3D (Item 1.6)

1.5.3.1 Homoscedástico

1.5.3.2 Heterocedástico

1.5.4 Histograma dos resíduos (Item 1.6)

1.5.4.1 Homoscedástico

Os dois histogramas apresentam distribuições de resíduos aproximadamente simétricas e centradas em zero. Os dois histogramas indicam que os erros, tanto homocedástico quanto heterocedástico, possuem o formato próximo ao de uma distribuição normal.

A principal diferença dos gráficos está na amplitude e dispersão dos resíduos. No modelo homocedástico, os valores variam em torno de −1.2 a 1.1, enquanto no modelo heterocedástico essa faixa é maior, alcançando aproximadamente −2.2 a 2.1. Logo, ao permitir variância não constante, o modelo captura maior variabilidade nos erros.

Apesar dessa diferença na escala, a forma geral das distribuições permanece semelhante: ambas são simétricas, sem caudas exageradas ou assimetrias significativas. Dessa forma, conclui-se que a heterocedasticidade altera mais a magnitude dos resíduos do que sua estrutura ou comportamento central, influenciando a precisão dos erros-padrão e da inferência estatística.

1.5.4.2 Heterocedástico

1.6 Teste White para testar presença de heterocedasticidade na regressão da variáve log_wage_homo

teste_white_homo <- bptest(regress_4, ~ fitted(regress_4) + I(fitted(regress_4)^2))
Teste White para Heterocedasticidade – log
statisticparameterp_valor
0.21920.896

Regressão com log_wage_homo:

Não rejeitamos a hipótese nula de homocedasticidade. O comportamento dos resíduos é compatível com variância constante, como esperado, já que o salário foi gerado de forma homocedástica.

1.7 Teste White para testar presença de heterocedasticidade na regressão da variáve log_wage_hetero

teste_white_hetero <- bptest(regress_4_hetero, ~ fitted(regress_4_hetero) + I(fitted(regress_4_hetero)^2))
Teste White para Heterocedasticidade – log
statisticparameterp_valor
19.52620.0001

Regressão com log_wage_hetero:

Rejeitamos fortemente a hipótese nula. Há evidências claras de heterocedasticidade, o que também era esperado, pois o salário nesta versão foi gerado com variância não constante.

1.8 Estimação da equação minceriana por FGLS.

sigma2_chapeu <- residuals(regress_4_hetero)^2

# Regressão FGLS (weights = 1/sigma2_chapeu)
regress_fgls <- lm(log_wage_hetero ~ education + experience + I(experience^2) +
    male + white + north + northeast + south + centerwest, data = data, weights = 1/sigma2_chapeu
)
OLS x FGLS para log
Dependent variable:
log_wage_hetero
(1)(2)
education0.128***0.128***
(0.005)(0.0003)
experience0.036***0.035***
(0.005)(0.0003)
experience2-0.001***
(0.0001)
I(experience2)-0.001***
(0.00001)
north-0.165***-0.170***
(0.056)(0.006)
northeast-0.203***-0.201***
(0.038)(0.002)
south0.0380.037***
(0.047)(0.003)
centerwest0.110*0.117***
(0.059)(0.003)
male0.190***0.188***
(0.031)(0.002)
white0.184***0.184***
(0.031)(0.002)
Constant6.870***6.871***
(0.067)(0.004)
Observations2,0002,000
R20.3240.998
Adjusted R20.3210.998
Residual Std. Error (df = 1990)0.6891.000
F Statistic (df = 9; 1990)105.800***117,738.000***
Note:*p<0.1; **p<0.05; ***p<0.01

A estimação por FGLS produziu coeficientes mais próximos dos valores verdadeiros utilizados na geração dos dados. Isso ocorre porque o FGLS corrige a heterocedasticidade presente no modelo com log_wage_hetero, ajustando os pesos de cada observação de acordo com a variância dos erros. Assim, as estimativas tornam-se mais eficientes e menos distorcidas do que as obtidas via OLS. Comparando os dois métodos, é possível observar que os coeficientes do FGLS não apenas mantêm os mesmos sinais e magnitudes gerais, mas também apresentam erros-padrão muito menores, refletindo maior precisão. Como a equação minceriana foi simulada com heterocedasticidade, esse resultado era esperado: o FGLS recupera melhor os parâmetros populacionais e fornece estimativas mais alinhadas com o modelo gerador dos dados.

1.9 Diferença entre a equação minceriana estimada para o log_wage_hetero por OLS e FGLS para 200.000 e 2000 observações

OLS x FGLS (Amostra de 200 mil)
Dependent variable:
log_wage_hetero
(1)(2)
education0.129***0.138***
(0.0005)(0.00004)
experience0.035***0.020***
(0.0005)(0.00001)
experience2-0.0005***
(0.00001)
north-0.144***-0.139***
(0.006)(0.0004)
northeast-0.201***-0.197***
(0.004)(0.0003)
south0.074***0.073***
(0.005)(0.0004)
centerwest0.048***0.028***
(0.006)(0.001)
male0.247***0.207***
(0.003)(0.0002)
white0.176***0.204***
(0.003)(0.0002)
Constant6.813***6.802***
(0.007)(0.0004)
Observations200,000200,000
R20.3481.000
Adjusted R20.3481.000
Residual Std. Error0.684 (df = 199990)9.994 (df = 199991)
F Statistic11,871.090*** (df = 9; 199990)119,004,808.000*** (df = 8; 199991)
Note:*p<0.1; **p<0.05; ***p<0.01
OLS x FGLS para log
Dependent variable:
log_wage_hetero
(1)(2)
education0.128***0.128***
(0.005)(0.0003)
experience0.036***0.035***
(0.005)(0.0003)
experience2-0.001***
(0.0001)
I(experience2)-0.001***
(0.00001)
north-0.165***-0.170***
(0.056)(0.006)
northeast-0.203***-0.201***
(0.038)(0.002)
south0.0380.037***
(0.047)(0.003)
centerwest0.110*0.117***
(0.059)(0.003)
male0.190***0.188***
(0.031)(0.002)
white0.184***0.184***
(0.031)(0.002)
Constant6.870***6.871***
(0.067)(0.004)
Observations2,0002,000
R20.3240.998
Adjusted R20.3210.998
Residual Std. Error (df = 1990)0.6891.000
F Statistic (df = 9; 1990)105.800***117,738.000***
Note:*p<0.1; **p<0.05; ***p<0.01

Quando aumentamos a amostra de 2000 para 200000 observações, a diferença das estimativas de OLS e FGLS ficam mais evidentes. Anteriormente quando analisamos para 2000 observações, o FGLS já mostrava coeficientes mais próximos dos valores verdadeiros da equação de Mincer. Porém com 200000 observações, o FGLS converge para valores praticamente iguais aos parâmetros populacionais, enquanto o OLS permanece enviesado em função da heterocedasticidade presente na variável dependente.

Além disso, os erros-padrão no FGLS ficam extremamente pequenos, refletindo um enorme ganho de precisão, o que é visível quand comparamos colunas: enquanto no OLS os erros-padrão são cerca de 0,003 a 0,006, no FGLS eles passam a ser de 0,0002 a 0,001. O mesmo ocorre com a qualidade do ajuste: o R² do FGLS atinge 1, indicando que o modelo praticamente recupera a estrutura de geração dos dados, enquanto o OLS mantém um R² bem inferior (0,348), pois continua ignorando a forma verdadeira da variância dos erros.

Logo, é possível concluir que aumentar a amostra mostra que o OLS não consegue recuperar os parâmetros corretos quando há heterocedasticidade relevante, enquanto o FGLS se torna ainda mais preciso e se aproxima dos valores reais usados na simulação.

1.10 Conclusão

Nossa análise focou na equação de Mincer, usando dados criados artificialmente com erros de variância constante e variável. As estatísticas resumidas e os gráficos revelaram conexões notáveis entre salário, nível de escolaridade e tempo de experiência profissional, além de indícios visuais de que a variabilidade salarial não era uniforme. Testes estatísticos formais validaram essas tendências: o teste de White não encontrou heterocedasticidade no modelo de variância constante, mas identificou evidências significativas no modelo com variância variável, alinhando-se com a forma como os dados foram produzidos.

As estimativas enfatizaram o quão crucial é usar métodos apropriados para gerenciar a variabilidade não uniforme. O MQO gerou resultados aceitáveis no contexto de variância constante, mas exibiu imprecisões e erros padrão aumentados quando aplicado ao modelo com variância variável. Por outro lado, o MQGF resolveu essa restrição, recuperando parâmetros mais próximos dos valores reais e demonstrando maior exatidão. Ao expandir a amostra para duzentas mil observações, a vantagem do MQGF se tornou ainda mais clara, enquanto o MQO permaneceu impreciso.

Em resumo, os resultados enfatizam que a existência de heterocedasticidade afeta diretamente a eficácia e a credibilidade das estimativas, e que abordagens como o MQGF são essenciais quando a variância dos erros não é constante. O estudo também ilustrou como simulações podem ser valiosas para entender o desempenho dos estimadores sob diferentes condições.